当今的混合现实头戴式显示器显示了用户在世界空间中的头部姿势以及用户的手,以在增强现实和虚拟现实场景中进行互动。尽管这足以支持用户输入,但不幸的是,它仅限于用户的虚拟表示形式。因此,当前的系统诉诸于浮动化身,其限制在协作环境中尤为明显。为了估算稀疏输入源的全身姿势,先前的工作已在骨盆或下半身中融合了其他跟踪器和传感器,从而增加了设置的复杂性并限制了移动设置中的实际应用。在本文中,我们提出了AvatarPoser,这是第一个基于学习的方法,该方法仅使用用户头和手中的运动输入来预测世界坐标中的全身姿势。我们的方法建立在变压器编码器上,以从输入信号中提取深度特征,并将全局运动从学到的局部关节取向中解脱出来,以指导姿势估计。为了获得类似于运动捕获动画的准确全身运动,我们使用具有逆运动学的优化程序来完善臂关节位置,以匹配原始跟踪输入。在我们的评估中,AvatarPoser实现了新的最新最新结果,从而对大型运动捕获数据集(Amass)进行了评估。同时,我们的方法的推理速度支持实时操作,提供了一个实用的接口,以支持整体化的头像控制和元应用的表示形式。
translated by 谷歌翻译